NeurIPS 2025 Spotlight | NYU提出QSVD,仅数学压缩让模型更轻、更快
本工作由纽约大学 NYU SAI Lab 的硕士生王宇彤与博士生王海宇合作完成。本文的通讯作者为张赛骞,他是纽约大学(New York University)计算机科学系助理教授、SAI Lab 负责人,其研究方向涵盖多模态大模型(Vision-Languag
本工作由纽约大学 NYU SAI Lab 的硕士生王宇彤与博士生王海宇合作完成。本文的通讯作者为张赛骞,他是纽约大学(New York University)计算机科学系助理教授、SAI Lab 负责人,其研究方向涵盖多模态大模型(Vision-Languag
本工作由纽约大学 NYU SAI Lab 的硕士生王宇彤与博士生王海宇合作完成。本文的通讯作者为张赛骞,他是纽约大学(New York University)计算机科学系助理教授、SAI Lab 负责人,其研究方向涵盖多模态大模型(Vision-Languag
本文第一作者王涛来自中国人民大学,共同第一作者李梦雨 (https://mengyu8042.github.io/) 来自清华大学。通讯作者为中国人民大学张琼助理教授 (https://sarahqiong.github.io/) 与孟澄助理教授 (https
近年来,单步扩散模型因其出色的生成性能和极高的推理效率,在图像生成、文本到视频、图像编辑等领域大放异彩。目前主流的训练方法是通过知识蒸馏,最小化学生模型与教师扩散模型之间的分布差异。然而,现有的方法主要集中在两条平行的理论技术路线上:
neurips fid 单步 imagenet单步 imag 2025-10-28 14:29 3
面对时长从几分钟到数小时的长视频,现有多模态视频语言模型(Large Video-Language Models, LVLMs)却因上下文窗口有限、视觉-文本对齐不足等问题屡屡 “失灵”,要么需海量数据与 GPU 资源进行微调,要么依赖 GPT-4o 等闭源模
近日,NeurIPS 2025公布了录用结果,该会议是机器学习与人工智能领域最具影响力的国际顶级学术会议之一。据悉本次会议共有21575篇投稿进入审稿阶段,最终5290篇论文被录用,录用论文中共有688篇论文(入选比例3%)被选为亮点文章(Spotlight)
作者为北京航空航天大学的肖宜松,刘艾杉,应宗浩,刘祥龙,新加坡国立大学的梁思源,新加坡南洋理工大学的陶大程。本文已被 NeurIPS 2025 录用。
回归模型在推荐系统中至关重要。由于推荐场景的目标数据(如观看时长、成交金额)分布常呈现高偏性(High-skewed),业界普遍会先对目标做一下变换(如对数变换)再用回归模型拟合,以改善模型的收敛表现。然而,我们发现这种做法会引入重变换偏差,导致模型出现系统性
作者简介:本文第一作者为卡耐基梅隆大学机器人所研究生 Tonghe Zhang,主要研究方向为机器人操作大模型和全身控制算法。合作者为德克萨斯大学奥斯汀分校博士生 Sichang Su, 研究方向为强化学习和通用机器人策略。指导教师是清华大学和北京中关村学院的
本论文第一作者曹子昂,南洋理工大学博士二年级,研究方向是计算机视觉、3D AIGC 和具身智能。主要合作者为来自南洋理工大学陈昭熹和来自上海人工智能实验室的潘亮,通讯作者为南洋理工大学刘子纬教授。
光线及其与周围环境的交互共同塑造了人类以及具身智能体感知数字世界和现实世界的基本方式,在不同光照条件下对世界的观测使得我们理解光线与物质的交互关系,使得我们形成对周边环境物质和几何属性的基本判断,并且也使得我们能够在不同的光照条件下都能够鲁棒且正确地完成与世界
最近自动驾驶圈出了个实打实的硬新闻,华中科大跟小米汽车联手搞出的Genesis框架,直接登上了AI顶会NeurIPS。
由华中科技大学与小米汽车提出了业内首个无需 OCC 引导的多模态的图像 - 点云联合生成框架Genesis。该算法只需基于场景描述和布局(包括车道线和 3D 框),就可以生成逼真的图像和点云视频。
如何让自动驾驶系统像经验丰富的人类驾驶员一样,具备对复杂动态交通场景的直觉式预判与决策能力?这是该领域追求的终极目标之一。近年来,功能强大的视觉语言模型(VLM)为实现这一目标带来了曙光,但其主流的“思考”方式仍存在瓶颈。
大家有没有想过,未来的某一天,看视频不再是看一个“平面”,而是可以自由旋转视角的“立体”世界?这就是体积视频(Volumetric Video)的魅力,它能为人们带来前所未有的沉浸感。但理想很丰满,现实却很骨感——体积视频的数据量实在是太大了!想在手机上像刷短
作者:Shiting Xiao, Rishabh Kabra, Yuhang Li, Donghyun Lee, Joao Carreira, Priyadarshini Panda
通用 sam neurips 掩码 openworldsam 2025-09-24 18:45 2
论文一作李放,美国伊利诺伊大学香槟分校 (UIUC) 博二学生,研究方向为 4D 视觉定位、重建/新视角合成以及理解。第二作者为美国伊利诺伊大学香槟分校博四学生张昊。通讯作者是 Narendra Ahuja, 美国伊利诺伊大学香槟分校 Donald Bigga
TC-Light 是由中科院自动化所张兆翔教授团队研发的生成式渲染器,能够对具身训练任务中复杂和剧烈运动的长视频序列进行逼真的光照与纹理重渲染,同时具备良好的时序一致性和低计算成本开销,使得它能够帮助减少 Sim2Real Gap 以及实现 Real2Real
近日,由中国计算机学会(CCF)推荐的A类学术会议、人工智能领域顶级国际会议之一“NeurIPS 2025”(神经信息处理系统大会)公布论文录用结果。中国电信人工智能研究院(TeleAI)共有7项成果被收录,重点聚焦正激励噪声(Pi/π-Noise, Posi
近日,由中国计算机学会(CCF)推荐的A类学术会议、人工智能领域顶级国际会议之一“NeurIPS 2025”(神经信息处理系统大会)公布论文录用结果。中国电信人工智能研究院(TeleAI)共有7项成果成功入选,重点聚焦正激励噪声(Pi/π-Noise, Pos